亚洲精品国产综合久久久久紧,久久99精品久久久久久清纯,人妻无码一区二区三区在线,ぱらだいす天堂中文网WWW

聯(lián)
咨詢熱線:

185-9527-1032

聯(lián)系QQ:

2863379292

官方微信:

網(wǎng)頁抓取優(yōu)先策略

全網(wǎng)營銷

導(dǎo)讀:網(wǎng)頁抓取優(yōu)先策略也稱為“頁面選擇問題”(page Selection),通常是盡可能地首先抓取重要性的網(wǎng)頁,這樣保證在有限的資源內(nèi)盡可能地照顧到那些重要性高的網(wǎng)頁。那么哪些網(wǎng)頁才

發(fā)表日期:2019-12-23

文章編輯:興田科技

瀏覽次數(shù):9203

標(biāo)簽:

網(wǎng)頁抓取優(yōu)先策略也稱為“頁面選擇問題”(page Selection),通常是盡可能地首先抓取重要性的網(wǎng)頁,這樣保證在有限的資源內(nèi)盡可能地照顧到那些重要性高的網(wǎng)頁。那么哪些網(wǎng)頁才是重要性高的呢?如何量化重要性呢?

重要性度量由鏈接歡迎度、鏈接重要度和平均鏈接深度這個方面決定。

定義鏈接歡迎度為IB(p),它主要由反向鏈接(Backinks)的數(shù)目和質(zhì)量決定。首先考察數(shù)目,直觀地講,一個網(wǎng)頁有越多的鏈接指向它(反向鏈接數(shù)多),那么表示其他網(wǎng)頁對其的認(rèn)可。同時這個網(wǎng)頁被網(wǎng)民訪問的機會就大,推測出其重要性也就越高;其次考察質(zhì)量,如果被越多的重要性高的網(wǎng)指向,那么其重要性也就越高。如果不考慮質(zhì)量,就會出現(xiàn)局部最優(yōu),而不是全局最優(yōu)的問題。最典型的就是作弊網(wǎng)頁,人為地在一些網(wǎng)頁中設(shè)置了大量反策鏈接指向其自身的網(wǎng)頁,以提高該網(wǎng)頁的重要性。如果不考慮鏈接質(zhì)量,就會被這些作弊者所利用。

定義鏈接重要度為IL(p),它是一個關(guān)于URL字符串的函數(shù),僅僅考察字符串本身。鏈接重要度主要通過一些模式,比如認(rèn)為包含“.COM”或者“HOME”的URL重要度高,以及具有較少斜杠(Slash)的URL重要度高等。

定義平均鏈接深度為ID(p),此為筆者所創(chuàng)。ID(p)表示在一個種子站點集合中,每個種子站點如果存在一條鏈路(寬度優(yōu)先遍歷規(guī)則)到達該網(wǎng)頁,那么平均鏈接深度就是這個網(wǎng)頁的又一個重要性指標(biāo)。因為距離種子站點越近,說明被訪問的機會越多,離種子站點越遠,重要性越低。事實上,按照寬度優(yōu)先的遍歷規(guī)則即可滿足這種重要性高的網(wǎng)頁被優(yōu)先抓取的需要。

最后,定義網(wǎng)頁重要性的度量為I(p),它由以上兩個量化值線性決定,即:

I(p)=a*IB(p)+β*IL(p)

平均鏈接深度同寬度優(yōu)先的遍歷規(guī)則保證,因此不作為重要性評價的指標(biāo)。在抓取能力有限的情況下,如果能夠把重要性高的網(wǎng)頁盡可能地抓完,是合理科學(xué)的,最終被用戶查詢到的網(wǎng)頁也往往是那些重要性高的網(wǎng)頁。

盡管這樣看來已經(jīng)足夠完美,事實上,還是忽視了一個重要的要素--時間。時間導(dǎo)致萬維網(wǎng)動態(tài)變化的一面。如何抓取那些新增的網(wǎng)頁呢?如何重訪那些被修改了的網(wǎng)頁呢?如何發(fā)現(xiàn)那些被刪除了的網(wǎng)頁呢?為了保持和萬維網(wǎng)網(wǎng)頁的同步變化,就必須有網(wǎng)頁重訪策略。通過該策略可以識別增加、修改及刪除網(wǎng)頁這3種網(wǎng)頁變化的情況。

相關(guān)推薦

更多新聞